AI播客火到中文圈了?我对比了3款NoteBookLM平替
"NoteBooKLM 播客生成可能正在触及一个全新的、引人注目的 LLM 产品领域。这让人联想到了 ChatGPT。"
这是OpenAI创始成员之一,Andrej Karpathy 的原话。
NotebookLM 最初在5月份的谷歌I/O开发者大会上以“Project Tailwind”的名称发布,前4个月不温不火,
9月份开窍了,更新了AI播客后,一举成为了“AI新范式”的存在。
我自己也算是一个播客爱好者了,一天高低要听三个,早上来杯声动早咖啡,中午听硅谷101,晚上听访谈。
播客能让我解放双手和双眼,用听觉与内容建立联系。
比起现在你直接“听”这篇文章,播客的魅力在于你能够产生共鸣,
有种这个问题我想问很久了,终于有人问出来的感觉!
所以,我也很期待 NotebookLM 支持中文,可惜这个产品继承了本家 Google 的“优点”,出了名兼容中文的速度慢。
这次我收集了3个 NoteBookLM 的中文平替来超前体验:
AI 播客是否能融入日常信息流呢?
我们直接先来听听一段纯 AI 生成中文博客的:
说实话是有给到我一点惊喜的。
语气跟真人的相似度我能打7分,主持人之间的对话过渡也足够平滑。
关键是直接把实现技术栈都展示出来了:
LLM 大模型 API + TTS 语音合成 API
这下《人人都是播客主》了。
当然除了听起来顺耳,我对AI播客的定位是
一款能让我利用好容易分神的时间段,用更简单直观的方式摄入信息的方式。
我会期待AI播客能够将超长的中文文本、英文访谈、英文发布会通通转成播客,说不定未来会是补充 RSS 的新形式。
这次体验的3款平替工具分别是:
PodLM|将任何内容转化为AI播客 podlm-public|把任意url转成播客,然后推送到小宇宙 PDF2Audio|将 PDF 文件转换为播客、讲座、摘要等音频 Open-NotebookLM:将任何 PDF 或者链接转换为播客
为什么3款工具下面有4个名字?
因为测试过程中发现 PDF2Audio 需要额外 API,且目前只支持 OpenAI 的。
本着“来都来了”的二创精神,我将 PDF2Audio 下载到本地魔改了一下兼容的 API,才发现 PDF2Audio 和 Open-NotebookLM 都是基于同一个项目pdf-to-podcast
二次开发。
先说一下结论,
如果你不想在本地安装的话:
PodLM 是成功率最高的一款了,默认的免费套餐能生成10个播客 如果想要无限抽卡,不限制生成时长的话,podlm-public 值得体验。不过由于服务器限制,一旦生成时间超过10分钟就再来一遍吧 Open-NotebookLM 和 PDF2Audio都不推荐,单次生成时间过长,且失败率很高。优点是项目结构简单,适合开发者朋友们二创。
一、PodLM
辣评一下:整体听感上是比较流畅的,男主持人比较贴播客主播的感觉,女声反而比较像传统的新闻播音腔。整体听下来还是少了点亲切感,少了点真实采访中的互动感,过于正经的语调确实有些新闻联播的即听感。
二、podlm-public
辣评一下:整体听感上有点播音腔,但会比PodLM1自然一点。两个主播的声音都能区分开,中间还会穿插一些语气词。一分钟后的语音效果会感觉比前一分钟的要流畅自然一些,更有播客的感觉,就是到了中英文混合的部分会容易念错或者逐个字母的念英文,不过这也是中文TTS的老毛病了。
三、Open-NotebookLM
辣评一下:两个人的声音区别不大,有的时候听不出来是两个人在对话,中间部分发音还是带着一点电音,能听出来一些 AI 味儿。同时对话语速稍快,缺乏感情。
接下来,挑战一下英译中。找了一篇特斯拉发布会的英文新闻稿丢进去:
AI 播客这种会损失部分信息的处理方法是很适合多语种的。
这也是我后续期待的高频使用场景,我可以通过订阅各种非母语的信息源,直接输出成中文播客。
最后,额外给 PodLM 点个赞,UI设计上能看到你输入的网页内容、播客的对话内容,还出了内容概要和主题。
要是加上一个采访者名字、背景自定义,四舍五入就是我来采访马斯克了。
写在最后
播客陪伴了我很长一段时间,
尤其是 GPT 带来的信息洪流下,
听播客更像在一片海滩上散步时,碰上萤火虫一样的偶发惊喜。
很庆幸在只有耳朵的世界我没有遗漏了很多有趣的信息。
当然我也想把这些信息用播客的方式分享出来,但苦于没找到理想的搭子。
难得有这机会,
我还真在小宇宙上做了一档专门挑选优质英文内容转成中文播客的栏目
《科技抢鲜看》🍓
欢迎大家来订阅~
@ 作者 / 卡尔@ 动手学AI知识库 / learnprompt.pro
最后,感谢你看到这里👏如果喜欢这篇文章,不妨顺手给我们点赞👍|在看👀|转发📪更多的内容正在不断填坑中……